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摘要 : 【 目的 ] 我 国 规范 数据 质量 差 且 维护 效率 低下 ， 需 探索 低 成 本 高 效率 的 信息 源 获 取 模 式 ,丰富 个 人 名 称 规 
范 数据 。[ 方法 】 分别 从 语义 资源 数量 和 类 型 的 有 效 性 , 高 效 维护 的 评价 指标 易 获取 、 自 动 化 程度 、 维 护 速度 和 
开放 资源 可 信 度 三 个 方面 论证 用 语义 资源 维护 名 称 规范 的 可 行 性 , 同时 以 FOAF 为 例 设计 实现 方案 。[ 结果 】 制 


定 了 获取 语义 资源 的 限制 条 件 、 接 口 方式 和 收割 规则 策略 ,给 出 发 现 、 


整合 资源 的 RDF 谓词 以 及 开发 包 和 软件 


两 种 实现 技术 , 设计 丰富 名 称 规 范 数据 的 自动 多 重 匹配 算法 和 映射 表 。[ 局 限 】 只 提供 实现 流程 及 方案 , 没有 付 
诸 实施 ; 语义 资源 获取 后 的 存储 方式 、 提 取 处 理 方法 只 是 框架 设计 ,没有 给 出 详细 的 实现 技术 。[ 结论 】 可 以 将 
与 个 人 相关 的 开放 语义 资源 自动 匹配 ,丰富 本 地 名 称 规范 数据 。 


关键 词 : 个 人 名 称 规范 ”开放 语义 资源 自动 发 现 聚 合 
分 类 号 : G254 TP393.4 
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我 国 个 人 名 称 规范 数据 因 不 完整 数据 量 大 、 重 名 
严重 及 同名 标 目 形式 多 样 化 等 问题 导致 标 目 间 区 分 度 
低 , 在 维护 规范 数据 和 规范 书目 责任 者 时 给 编目 员 甄 
别 和 选择 带 来 较 大 障碍 ,需要 人 工 逐 条 分 析 、 比 对 和 
辨别 。 编 目 员 在 个 人 名 称 规 范 维护 和 控制 工作 中 花费 
的 时 间 、 精 力 与 名 称 规范 发 挥 的 作用 形成 较 大 反差 。 

截至 2014 年 底 ， 国 家 图 书馆 名 称 规范 数据 量 已 高 
达 140 万 条 , 7 年 时 间 增 长 62%, 因此 当前 名 称 规范 工 
作 重 点 不 应 该 是 盲目 扩张 规范 库 规模 ,而 是 要 靠 高 效 
获取 和 完善 数据 提升 名 称 规范 数据 的 维护 效率 和 质 
量 ， 从 而 真正 发 挥 名 称 规范 的 区 分 、 汇 聚 等 功能 。 

探索 低 成 本 高 效率 的 信息 源 获取 模式 是 关键 所 
在 。 目 前 ， 维 护 规范 数据 的 信息 来 源 有 受 编 文 献 、 工 
| 书 、 期 刊 、 网 络 、 电 话 、 邮 件 和 交友 软件 等 渠道 , 这 
< 渠道 大 多 是 被 动 获 取信 息 ， 可 获得 内 容 取决 于 是 否 


了 


并 


后 


| 


提供 和 提供 哪些 信息 ; 电话 、 邮 件 和 交友 软件 虽然 能 
得 到 指定 信息 , 但 沟通 成 本 高 不 利于 大 规模 开展 。 因 
此 需 探索 新 的 信息 源 获取 模式 , 在 获得 所 需 信息 的 同 
时 , 能 快速 大 规模 开展 个 人 名 称 规范 数据 维护 工作 并 
降低 人 力 物力 成 本 。 

国内 外 已 有 学 者 从 开放 关联 数据 的 角度 论述 发 布 
名 称 规范 数据 可 以 发 现 、 整 合 信息 , 其 中 有 些 完成 了 
数据 的 语义 化 发 布 , 但 并 未 给 出 如 何 实现 规范 数据 的 
丰富 和 具体 实施 方案 中 4; Elliott 提出 利用 FOAF 帮助 
名 称 规范 消 歧 , 但 只 论述 了 潜在 可 能 性 ,并 提出 相关 
疑问 中 。 考 虑 到 机 构 对 自身 数据 不 愿 公开 以 及 开放 关 
联 数据 操作 、 管 理 的 复杂 性 ， 本文 提出 不 发 布 为 开放 
关联 数据 ， 而 是 收割 语义 资源 丰富 本 地 名 称 规范 的 方 
法 , 并 论述 该 方法 可 行 的 相关 依据 , 同时 以 FOAF 为 
例 , 制定 语义 资源 获取 策略 、 分 析 发 现 整 合 技术 以 及 
给 出 自动 丰富 名 称 规范 数据 的 具体 算法 和 方案 。 


通讯 作者 : 部 嘉 树 ，ORCID: 0000-0002-4403-8516，E-mail: haojsh@nlc.cn。 
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2 开放 语义 资源 : 高 效 信息 源 获 取 模 式 


开放 语义 资源 是 发 布 在 Web 中 以 机 器 可 理解 可 处 
理 的 资源 描述 框架 (Resource Description Framework， 
RDP) 模 型 和 统一 资源 标识 符 (Uniform Resource 
Identifier, URD 表 示 的 可 分 享 、 链 接 的 数据 集合 四。 语 
义 数据 通过 “主体 -谓词 -客体 ”三 元 组 (Triple) 形 式 描述 
不 同 对 象 和 它们 之 间 的 关系 ,资源 用 URI 标识 并 用 
RDF 模型 表示 后 , 经 过 发 布 , 任何 人 都 可 以 使 用 
HTTP URI 参 引 (Dereference， 查找 和 获取 ) 该 数据 。 

开放 语义 资源 是 有 效 的 名 称 规范 信息 源 。 目 前 互 
联网 上 发 布 的 RDF 三 元 组 数量 已 是 百 亿 级 别 , 在 这 些 
开放 语义 资源 中 , 包含 了 由 网 络 用 户 发 布 的 “自我 申 
明 ” 它们 通过 用 户 创造 内 容 (User Generated Content, 
UGO)DI 形 式 整 合 存在 人 头脑 里 有 关 人 的 事实 信息 ,， 例 
如 FOAF(Friend-Of-A-FriendJ、BibAppl 和 VIVO 
这 些 资源 描述 个 人 的 兴趣 爱好 、 开 展 的 工作 及 项 目 、 
发 表 的 著作 及 认识 的 朋友 同事 等 , 可 用 来 补充 、 完 善 
个 人 名 称 规范 数据 相关 信息 项 ; 除 此 之 外 ,开放 语义 
资源 中 还 有 权威 机 构 发 布 的 名 称 规范 档 、 人 名 表 和 和 令 
词 表 等 , 如 德国 国家 图 书馆 联合 权威 档 (Gemeinsame 
Normdate，GND) 中 及 国际 虚拟 规范 文档 (Virtual 
International Authority File, VIAF)D9 等 基于 RDF/XML 
描述 的 名 称 规范 档 , 英国 档案 叙 词 表 (UK Archival 
Thesaurus，UKAT)D 及 美国 国会 图 书馆 标题 表 (Library 
of Congress Subject Headings, LCSHJD3 等 用 简单 知识 组 
织 系统 (Simple Knowledge Organization System, SKOS)D3 
表示 的 个 人 主题 词 , 这些 词 汇 表 包含 了 权威 的 个 人 信 
息 , 其 本 身 就 可 用 来 丰富 名 称 规范 附加 成 分 、 单 纯 参 照 
和 相关 参照 等 , 提高 个 人 名 称 规范 数据 质量 。 

利用 开放 语义 资源 维护 名 称 规范 数据 的 高 效 性 体 
现在 易 获 取 性 、 自 动 化 程度 和 维护 速度 三 个 方面 。 目 
前 国内 外 维护 名 称 规范 数据 的 主要 方式 是 由 编目 员 通 
过 受 编 文献 、 工 具 书 、 期 刊 、 网 络 和 邮件 等 渠道 查找 
责任 者 相关 信息 ,并 进行 手工 维护 。 利 用 开放 语义 资 
源 的 自动 维护 较 之 基于 传统 信息 源 的 手工 维护 : 

(1) 易 获 取 性 方面 , 前 者 的 RDF 三 元 组 描述 方式 
及 URI 技术 容易 在 数据 集 之 间 跳 转 , 将 不 同 数据 集合 
以 各 种 关系 形式 连接 起 来 , 从 而 能 极 大 程度 上 发 现 和 
获取 资源 ,并 且 准 确 性 高 ; 而 后 者 需 人 工 逐 一 在 各 信 


现代 图 书 情报 技术 


息 源 中 查找 ， 并 需 辩 识 同 名 异 人 的 情况 。 

(2) 自动 化 程度 方面 , 前 者 结构 化 的 数据 可 将 RDF 
谓词 和 规范 数据 MARC 字段 建立 映射 , 计算 机 程序 能 
自动 将 语义 资源 收割 到 规范 记录 对 应 的 字段 中 去 ; 而 
后 者 需 人 工 查 找 、 辨 识 各 字段 对 应 的 内 容 并 手工 输入 。 

(3) 维护 速度 方面 , 前 者 大 部 分 流程 都 可 以 根据 
相关 算法 和 RDF 机 制 由 机 器 自动 、 定 向 和 批量 地 获取 
资源 和 维护 规范 数据 , 对 于 超出 本 地 规范 库 范 畴 外 的 
资源 可 快速 新 建 记录 扩张 本 地 规范 库 规模 ; 而 后 者 在 
各 环节 主要 靠 人 工 来 逐条 比 对 、 判 断 和 维护 ， 影 响 维 
护 的 速度 。 

从 以 上 三 个 评价 指标 可 以 得 出 , 利用 开放 语义 资 
源 的 自动 维护 较 之 基于 传统 信息 源 的 手工 维护 效率 
高 ,有 利于 个 人 名 称 规范 数据 质量 及 规模 的 提升 。 

开放 语义 资源 可 信和 度 高 。 语 义 数据 的 技术 架构 提 
供 可 追踪 来 源 的 RDF 语义 描述 方案 , 通过 数据 来 源 判 
断 数 据 的 可 靠 性 ,， 还 有 通过 计算 网 络 可 信和 度 推断 来 源 
名 誉 4 语义 网 为 各 类 实体 和 所 涉及 的 大 量 概 念 、 术 
语 提供 了 规范 控制 ,使 得 提 及 某 一 实体 或 概念 术语 时 ， 
系统 能 自动 给 予 归 并 或 参照 ,这 种 规范 控制 的 结果 就 
使 信息 在 一 定 程度 上 更 加 可 信和 中 开放 的 语义 资源 中 ， 
网 络 用 户 发 布 的 “自我 申明 ”是 个 人 对 自我 的 真实 反 
映 ， 排除 恶意 欺诈 , 该 种 模式 下 申明 的 内 容 是 客观 的 ; 
发 布 的 规范 文档 和 氢 词 表 等 是 由 权威 机 构 编 制 ， 内 容 
准确 真实 。 
调查 发 现 FOAF 是 最 受 欢 迎 的 本 体 之 一 "和 ,为 方 
便 理解 , 本文 即 以 FOAF 为 例 , 设计 用 语义 资源 丰富 
个 人 名 称 规范 数据 的 方案 , 探究 如 何 识别 和 获取 开放 
语义 资源 进行 个 人 信息 的 自动 发 现 及 聚合 , 并 自动 匹 
配 和 丰富 名 称 规范 数据 。 


3 FOAF 


FOAF 是 网 络 用 户 用 已 定义 好 的 RDF 词汇 表 形式 
化 描述 个 人 信息 和 其 相关 的 社会 网 络 ， 其 本 质 为 描述 
个 人 的 简单 本 体 。 它 由 Brickley 等 于 2000 年 创建 ， 遵 
循 W3C 体系 ,最 初 只 描述 个 人 ,后 扩展 到 各 类 群体， 
如 机 构 、 公 司 和 地 点 ，FOAF 描述 词汇 随 之 历经 10 次 
更 新 , 于 2014 年 最 终 确 定 下 来 "71。 

计算 机 对 FOAF 文档 可 读 可 理解 ,文档 经 发 布 便 
可 搜索 和 处 理 。FOATF 命名 空间 用 RDF Schema 定义 


的 词汇 (标签 ) 描 述 个 人 及 相关 属性 (信息 项 ), 计算 机 通 
过 这 些 标签 理解 和 处 理 FOAF 文档 ; FOAF 文档 可 使 用 
“FOAF-a-Matic 2.0204、“Quatuo"03 等 在 线 工具 生成 ， 
也 可 参考 RDF/XML 语法 和 FOAF 词汇 手工 创建 。 获 
取 有 关 人 的 信息 并 不 容易 , FOAF 通过 UGC 形式 整合 
存在 人 头脑 里 有 关 人 的 事实 信息 , 并 通过 URI 分 散 的 
协同 形成 社会 网 络 。 本 文 所 使 用 的 foaf:Person( 个 人 ) 
类 包含 的 属性 如 表 1 所 示 : 
表 1 foaf: Person 包含 的 属性 标签 及 说 明 


属性 标签 说 明 
foaf:pastProject 曾 做 过 的 项 目 
foaf:currentProject 正在 进行 的 项 目 
foaf:publications 发 表 的 文章 
foaf:knows 认识 的 人 
foaf:workplaceHomepage 工作 单位 网 站 
foaf:workInfoHomepage 从 事 工作 的 相关 信息 
foaf:schoolHomepage 学 校 信息 
foaf:firstName 名 
foaf:surname 姓氏 
foaf:lastName 姓 
foaf:gender 性 别 
foaf:birthday 出 生日 期 
foaf:mbox 邮箱 URI 
foaf:mbox_ shalsum 加 密 的 邮箱 URI 
foaf:interest 兴趣 
foaf:geekcode 网 络 个 性 签名 
foaf:img 图 片 
foaf:plan 工作 、 个 人 生活 计划 


foaf:jabberID 、foaf: aimChatID 、 
foaf:yahooChatID、 foaf:icqChatID 


各 种 网 络 账号 


迈 尔 斯 布 里 格 斯 类 型 指 
标 ( 表 征 人 的 性 格 ) 


foaf:myersBriggs 


其 中 , 用 foafmbox 或 foafmbox shalsum 作为 识 
别 个 人 的 URI, 名 字 等 不 具 唯 一 标识 性 ， 而 不 同人 使 
用 不 同 的 邮箱 ，FOAF 用 邮箱 代表 背后 使 用 的 人 1。 
foaf:knows 表示 认识 的 人 , 通过 该 标签 可 以 很 容易 把 
相关 人 员 和 实体 关联 起 来 形成 社会 网 络 ， 从 而 丰富 个 
人 规范 数据 相关 参照 。 


4 ”基于 FOAF 丰富 个 人 名 称 规范 数据 的 
方案 设计 


利用 FOAF 丰富 名 称 规范 数据 流程 如 图 1 所 示 。 
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自动 发 现 及 整合 


图 1 利用 FOAF 丰富 个 人 名 称 规范 
数据 的 方案 设计 


使 用 语义 聆 虫 软件 根据 限制 条 件 获 取 FOAF 文 
档 集合 , 采用 相关 算法 和 名 称 规范 数据 进行 匹配 , 匹 
配 成 功 则 利用 URI 自动 发 现 聚 合 个 人 信息 ,并 根据 
FOAF 标签 与 规范 数据 MARC 字段 的 映射 自动 完善 
规范 数据 , 匹配 失败 则 对 FOAF 文档 进行 筛选 用 于 名 
称 规范 数据 的 新 建 ， 从 而 扩大 规范 库 种 类 和 数量 , 具 
体 实 施 方案 如 下 。 
4.1 识别 和 获取 FOAF 文档 

选用 开放 语义 资源 作为 信息 源 的 一 个 重要 原因 是 
可 由 计算 机 自动 批 处 理 大 量 数据 ,而 人 只 是 制定 规 
则 。 在 获取 资源 之 前 , 要 制定 限制 条 件 、 类 型 和 规则 ， 
保证 获取 资源 的 有 效 性 ， 具体 方案 如 下 : 

(1) 识别 限制 条 件 

数据 集 满足 下 面条 件 即 视 为 FOAF 文档 : 

QD 是 有 效 的 RDF 文档 ; 

@) 文 档 使 用 FOAF 命名 空间 ; 

(BX 是 rdf:Property 的 实例 并 且 来 自 FOAF 命名 空间 ; 

图 在 主体 位 置 只 能 有 一 个 类 型 为 foafPerson 的 实例 
并 且 不 能 作为 文档 中 任何 三 元 组 的 客体 。 另 外 ,文档 中 出 
现 的 其 他 foaf:Person 实例 必须 作为 客体 ， 不 能 出 现在 主 
体位 置 。 

其 中 涉及 的 FOAF RDF 模型 如 图 209 所 示 。 
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图 2 FOAF 文档 模型 


在 具体 实施 时 , RDF 的 有 效 性 使 用 RDF 解析 器 验 
证 ; 命名 空间 通过 检索 是 否 包含 “http://xmlns.com/ 
foaf/0.1/” 判 断 ; 条 件 @ 可 以 具 化 为 判断 foafX 的 rdfs: 
domain( 定 义 域 ) 是 否 为 foafPerson; 条 件 由 是 理想 的 
FOAF 文档 , 在 实际 中 过 于 严 茄 , 可 以 将 其 简化 ,排除 
没有 揭示 实例 的 情况 就 是 符合 定义 的 FOAF 文档 1。 

(2) 获取 接口 的 选择 

关联 数据 的 获取 方式 有 5 类 : SPARQL 查询 准确 
率 高 , 但 需 掌 握 相 关 语 法 及 获取 的 资源 少 ; Web 
Service API 可 长 期 、 批 量 获取 数据 , 但 需 熟 悉 API 背 
后 的 各 种 协议 ; 批量 下 载 简单 直接 , 但 不 适用 于 大 规 


布 后 可 被 计算 机 检索 和 处 理 ,并 可 将 网 络 上 离散 的 数 
据 片 段 自动 关联 起 来 发 现 新 内 容 。 数 据 之 间 的 链接 主 
要 依靠 三 元 组 中 谓词 和 URI 的 使 用 ,其 中 谓词 只 要 根 
据 应 用 领域 选择 相应 的 RDF 属性 即 可 请]。 

如 在 FOAF 中 ,从 个 人 发 布 的 FOAF 文档 中 获取 
信息 ,还 通过 唯一 标识 foafmbox 或 foafmbox_ 
shalsum 或 foafhomepage 游历 到 另外 的 FOAF 文档 ， 
从 而 自动 发 现 和 整合 文档 集合 中 有 关 此 人 的 所 有 信 
息 , 也 因此 可 用 来 完善 规范 数据 的 附加 成 分 、 单 纯 参 
照 和 注释 ,提高 个 人 名 称 规范 数据 质量 ; FOAF 通过 
foaf:knows 将 自己 的 朋友 、 同 事 或 认识 的 人 关联 起 来 ， 
再 通过 唯一 标识 匹配 FOAF 文档 集中 不 同 个 体 的 
owl:sameIndividualAs( 个 体 相同 ) 关 系 史 ,这 样 分 散 的 
文档 集合 就 能 形成 社会 网 络 ， 可 帮助 构建 、 完 善 个 人 
名 称 规范 数据 的 相关 参照 。 

通过 分 析 语义 数据 集 的 谓词 和 获取 URI 集合 ,就 
可 以 使 用 开发 包 或 已 有 的 语义 搜索 软件 发 现 和 整合 语 
义 资源 。 其 中 , 对 RDF 数据 有 处 理 能 力 的 开发 包 有 


六。 模 、 更 新 频率 高 的 数据 源 ; 动态 网 页 抽取 和 语义 搜索 。 Jenap3、SesamePq 和 PHPP7 等 , 已 有 的 语义 搜索 软件 
一 引擎 /把 虫 能 同时 获取 多 个 数据 源 资源 , 但 受 自身 算 。 有 Sindicet"、Swoogle | 等。 图 3 是 利用 FOAF 搜索 
ee 法 、 策 略 影响 大 RI。 结合 以 上 5 种 获取 方式 的 优势 和 ”器 NetEstateF 对 上 海 图 书馆 刘炜 自动 发 现 和 整合 的 


劣势 ， 本 文选 用 语义 息 虫 方式 , 如 LDSpider 目的 


Whl 


是 发 现 更 多 未 知 、 可 能 存在 的 语义 数据 集 。 
(3) 收割 规则 
为 不 引起 版 权 纠纷 , 在 搜索 数据 集 时 要 注意 数据 


ss 规定 的 访问 权限 ,选择 访问 方式 为 免费 和 可 开放 获取 


的 关联 数据 集 ; 对 于 有 限制 的 数据 集 获取 其 公开 部 分 
的 元 数据 内 容 。 

获取 FOAF 文档 是 迭代 的 过 程 。 将 前 述 规则 转化 
为 语义 候 虫 中 有 效 提问 , 相继 搜索 包含 FOAF 命名 空 
间 、foafPerson 及 文件 类 型 为 .foaf 的 文档 和 后 级 
为 rdf、.xrdf、.owl 的 RDF 文档 ， 从 而 收集 FOAF 文档 
和 URIs 集合 。 并 再 次 在 语义 怜 虫 中 利用 已 搜集 的 
URIs 和 FOAF 词汇 如 foafknows 和 rdfs:seeAlso, 发 
现 新 的 FOAF 文档 。 通 过 在 爬虫 中 搜索 发 现 , FOAF 文 
档 主 要 来 自 于 博客 , 常用 标签 排名 为 foaf:mbox 


shalsum 、 foaf:nick、foaf:name、foaf:homepage、foaf: 
knows ,foaf:birthday \ foaf:interest 和 rdfs:seeAlso 等 09。 
4.2 FOAF 个 人 信息 的 自动 发 现 及 聚合 

RDF 具有 开放 性 和 互联 性 , 实体 经 RDF 描述 、 发 
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结果 。 


图 3 FOAF 资源 的 自动 发 现 及 整合 


通过 URI (foaf shalsum) 排 除 同名 异 人 ,聚合 同 
人 异 名 , 检索 结果 都 为 上 海 图 书馆 刘炜 的 相关 信息 ; 
通过 相关 谓词 即 FOAF 标签 自动 发 现 、 聚 合同 一 信 
息 项 ， 如 “刘炜 ”本 人 发 布 的 FOAF 文档 姓名 为 “Keven 
Liu”,， 通过 foaf shalsum 及 foafname 可 自动 发 现 文档 
集合 中 他 人 描述 “刘炜 ”使 用 的 名 字 “Keven Liu”* 和 “ 刘 
炜 ”， 并 通过 foafname 标签 整合 显示 ; 另外 foafknows 
将 文档 集中 所 有 认识 此 人 和 此 人 认识 的 人 自动 聚合 在 
一 起 ， 即 用 骨 套 在 foaf:knows 中 描述 的 结构 进行 关联 ， 


最 终 形 成 个 人 社会 网 络 。 
4.3 ”FOAF 与 名 称 规范 数据 的 自动 匹配 及 丰富 

为 高 效 开 展 规范 数据 的 丰富 , 需 开 发 自动 匹配 算 
法 识别 规范 记录 对 应 的 FOAF 唯一 标识 。“ 姓 名 / 生 夷 
年 /著作 ”、“ 姓 名 / 生 玉 年 "和 “姓名 /著作 ”组 合 对 个 人 的 
识别 度 依次 降低 ， 可 根据 信息 完整 程度 和 是 否 匹配 成 
功 , 逐一 采用 这 三 种 组 合 进行 自动 识别 ; 另外 姓名 作 
为 匹配 的 主要 内 容 , 要 充分 利用 名 称 规范 数据 的 变异 
名 称 和 FOAF 昵称 , 使 同一 人 的 不 同名 称 形式 都 参与 
比较 提高 匹配 率 。 规 范 数据 匹配 FOAF 唯一 标识 的 算 
法 如 下 : 

(1) 分 别 抽取 名 称 规 范 记录 200 字 段 名 称 及 其 400 
字段 变异 形式 、200$f 和 挂 接 书 目 数据 200$a$e， 建 立 
集合 Ni、Bi 和 WiGNi 为 规范 记录 i 的 第 j 个 名 称 ，Bi 
和 Wi 分 别 为 规范 记录 i 的 生 举 年 和 著作 ); 

(2) 分 别 抽取 FOAF 文档 foaf:lastName+foaf:first 
Name 及 foaf:nick 、foaf:birthday 和 foaf: publications 
建立 集合 Fw、Bn， 和 Wn(Fmw 为 FOAF 文档 m 的 第 n 
个 名 称 , Bs 和 Wi 分 别 为 FOAF 文档 m 的 生 卒 年 和 著 
作 ); 

(3) 将 “FuwBwyWw 与 “5NWBWP 匹 配 ， 即 采 用 “ 姓 
名 / 生 座 年 /著作 ”模式 并 将 名 称 的 各 种 变异 形式 都 与 生 
卒 年 、 著 作 组 合 进 行 比 对 ; 

(4) 根据 匹配 结果 再 逐一 用 “姓名 / 生 共 年 "和 “ 姓 
名 /著作 ”进行 比 对 ; 

(5) 识别 成 功 的 建立 规范 记录 对 应 的 FOAF 唯一 
标识 (foafmbox 或 foafmbox shalsum 或 foafhomepage)， 
以 便 名 称 规范 数据 的 完善 和 定期 抓 取 、 更 新 数据 ; 

(6) 未 识别 成 功 的 ,筛选 “姓名 / 生 共 年 ”模式 中 
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生 卒 年 信息 完整 的 FOAF 文档 作为 新 记录 ,用 来 丰富 
名 称 规 范 数据 种 类 和 数量 (著作 是 否 完整 无 法 判断 ， 
此 不 包括 另外 两 种 模式 )。 

另外 , 在 匹配 过 程 中 要 对 数据 进行 相关 处 理 、 算 
法 进行 调整 以 提高 匹配 率 : 

(1) 对 于 姓名 , 中 、 日 、 韩 名 称 直接 抽取 规范 数据 
200 和 400 字段 的 $a 与 FOAF 中 foaf:lastName+foaf: 
firstName 、foaf:nick 匹配 ; 而 外 国人 的 拉丁 文 名 称 则 
选取 200 字段 Sc( 去 除 其 中 逗 导 )、400 字段 Sa+$b( 去 除 
之 间 豆 号) 与 foaflastName+foaffirstName 、foaf:nick 匹配 ， 
如 果 比 对 未 成 功 , 则 对 姓名 进行 缩写 以 提高 匹配 率 。 

(2) 对 于 生 座 年， 有些 规范 数据 因 著 录 错 误 将 
生 卒 年 著 入 $a 和 S$c 中 ,可 通过 判断 是 否 为 日 期 数据 
获取 该 信息 ; 对 于 完整 生 萃 年 信息 未 匹配 成 功 的 情 
况 ， 可 逐一 去 除 生 卒 年 末尾 数 、 座 年 或 生年 以 提高 
匹配 率 1。 

(3) 对 于 题名 , 对 书目 数据 中 不 规范 、 错 误 著录 进 
行 处 理 ， 如 检验 是 否 为 题名 和 删除 当中 的 姓名 ; 去 除 
两 类 集合 中 题名 的 标点 符 ， 如 破 折 号 、 方 括号 、 冒 号 
等 ; 对 于 拉丁 文 要 去 掉 前 后 空格 、 去 除开 头 冠 词 和 助 
词 和 不 区 分 大 小 写 等 3。 

计算 机 可 以 解析 RDF 数据 含义 , 通过 语义 标签 定 
向 找到 相关 信息 ， 因 此 只 要 将 个 人 RDF 资源 语义 标签 
和 规范 记录 MARC 字段 建立 映射 ， 计 算 机 程序 就 能 自 
动 将 RDF 数据 收割 到 规范 记录 对 应 的 字段 中 去 , 用 于 
完善 名 称 规范 数据 。 在 FOAF 中 , 根据 名 称 规范 记录 
揭示 的 个 人 信息 项 寻找 与 之 对 应 的 FOAF 属性 , 并 将 
属性 对 应 的 标签 和 名 称 规 范 MARC 字段 及 子 字段 建 
立 上 映射 ,如 表 2 所 示 : 


表 2 FOAF 标签 与 个 人 规范 数据 CNMARC 字段 的 映射 
CNMARC 字段 解释 FOAF 词汇 说 明 重复 与 否 

开放 数据 类 型 I 0 
091$aFOAF $bURI 。 POAE foaf:mbox 或 foafr:mbox shalsum 方便 数据 定期 维护 可 重复 

与 FOAF 对 应 的 SKOS | 与 SKOS 搭配 使 用 , 帮助 指明 不 同 es 
091$aSKOS $bURI 及 URI foaf:focus SKOS 体系 中 的 个 人 和 团体 J 重 复 
1209$a 编码 数据 字段 foaf:gender 区 分 于 200$c 职业 行业 唯一 
2009$c 附加 成 分 foaf:interest 职业 、 行 业 可 重复 
2009f 生 座 年 foaf:birthday 一 
391$a 发 表 著 作 foaf:publications 可 重复 
3919b 开展 项 目 foaf:pastProject ,foaf:currentProject 可 重复 
3919$c 工作 计划 foaf:plan 可 重复 
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应 用 认 


( 续 表 ) 
CNMARC 字段 解释 FOAF 词汇 说 明 重复 与 否 
392$a 性 格 foaf:myersBriggs 、foaf:geekcode 可 重复 
392$b 博客 foaf:weblog 可 重复 
3928¢c 人 物 肖 像 foaf:image 指向 图 片 库 可 重复 
3938a 工作 单位 foaf:workInfoHomepage.、 可 重复 
foaf:workplaceHomepage 

393$b 学 校 foaf:schoolHomepage 可 重复 
foaf:name 或 foaf:lastName+ 

4008a 单纯 参照 me one 其他 形式 的 名 字 、 昵 称 及 网 络 账号 。 可 重复 
foafyahooChatID 、foaf:skypeID 、 了 
foaf:icqChatID 

500$a 相关 参照 foaf:knows 相关 的 人 与 机 构 可 重复 

810$a 参考 数据 源 URI 发 布 的 URI 地 址 可 重复 


启用 和 扩展 新 字段 对 个 人 名 称 规范 数据 中 信息 进 
行 结 构 化 处 理 。 我 国名 称 规范 格式 中 , 200 字段 附加 成 
分 $c、300 字段 个 人 相关 信息 并 没有 进行 区 分 , 为 符合 
当下 编目 主流 趋势 , 适应 RDA 规则 及 新 修订 的 
UNIMARC 规范 格式 ,也 方便 名 称 规范 库 后 续 开发 利 
用 ,建议 启用 和 扩展 新 字段 对 个 人 信息 进行 结构 化 处 
理 。 其 中 , 启用 120 字段 用 于 区 分 200 字段 附加 成 分 
性 别 与 职业 ; 因 FOAF 多 个 属性 与 300$a 对 应 , 新 增 
391、392 、393 字段 分 别 著 录 个 人 工作 科研 情况 、 兴 
趣 性 格 和 相关 团体 信息 ， 其 中 包含 的 子 字 段 揭示 更 具 
体 的 信息 项 ; 新 增 091 字段 记录 对 应 语义 数据 的 唯一 
标识 , 开放 数据 处 于 动态 变化 中 , 通过 唯一 标识 可 定 
期 完善 数据 。 


S 结 语 


本 文 针 对 名 称 规范 数据 质量 差 且 维护 效率 低下 的 
情况 ,提出 收割 开放 语义 资源 丰富 本 地 名 称 规范 数据 
的 方法 , 在 论述 其 可 行 性 的 基础 上 以 FOAF 为 例 设计 
实现 流程 ,并 制定 识别 获取 语义 资源 的 限制 条 件 、 接 
口 方式 和 收割 规则 策略 ,给 出 发 现 、 整 合资 源 的 RDF 
谓词 以 及 两 种 实现 技术 开发 包 和 软件 , 设计 自动 丰富 
名 称 规范 数据 的 多 重 匹 配 算法 和 映射 表 。FOAF 只 是 
开放 语义 资源 的 一 个 典型 应 用 ,只 要 是 与 个 人 相关 的 
开放 语义 资源 , 如 VIAF 、GN 、CNO(CSHL Name 
Ontology, 冷泉 港 实验 室 姓名 本 体 ) 和 SKOS 表示 的 个 
人 主题 数据 等 ,都 可 用 于 自动 发 现 和 收割 语义 信息 ， 
丰富 本 地 个 人 名 称 规范 数据 。 
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下 一 步 将 开展 试验 工作 , 重点 关注 匹配 算法 的 效 
果 , 根据 结果 调整 匹配 策略 和 相关 参数 ; 另外 语义 资 
源 与 一 般 资 源 不 同 , 带 有 语法 和 格式 ， 因 此 要 研究 数 
据 存储 方式 和 提取 、 处 理 的 实现 技术 。 
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Enriching Personal Name Authority with Open Semantic Resources: 
FOAF for Schema Design 


Hao Jiashu 
(National Library of China, Beijing 100081, China) 


Abstract: [Objective] This study ctreated a new model to improve the quality and maintenance efficiency of the 
personal name authority data in China. [Methods] To prove the feasibility of using open semantic resources to enrich 
the name authority data, this study analyzed the number and types of semantic resources, evaluation metrics, automation 
and maintenance Speed, as well as the credibility of the open resource. The FOAF was used as an example to implement 
the schema. [Results] This study set restriction conditions, interface mode and harvest rules for obtaining the Semantic 
resources. It created RDF predicate and two realizing techniques, like SDK and software to discover and integrate 
resources. This study designed automatic multi-matching algorithm and mapping table to automatically enrich name 
authority data. [Limitations] Only creates the schema, which was not put into practice. The semantic resource’s storage 
model and the extraction processing methods are also at the initial framework stage. No detailed implementation 
technology was discussed. [Conclusions] The proposed method could be automatically matched with open Semantic 
resources of the individual names to enrich local personal name authority data. 

Keywords: Personal name authority Open semantic resources ” Automatic discovering and aggregating RDF URI 


FOAF Automatic matching and enriching 


耶鲁 大 学 图 书馆 加 入 人 文科 学 开放 图 书馆 合作 资助 系统 


耶鲁 大 学 图 书馆 加 入 了 人 文科 学 开放 图 书馆 (OLH) 的 图 书馆 合作 资助 系统 。 此 次 合作 将 为 耶鲁 大 学 和 世界 各 地 的 学 者 提 
供 数量 更 多 、 质 量 更 高 的 人 文科 学 开放 获取 出 版 物 。 

OLH 的 创始 人 和 学 术 项 目 主管 Martin Paul Eve 指出 :“ 我 很 高 兴 耶 鲁 大 学 能 够 加 入 我 们 。 很 显然 , 每 个 人 都 将 受益 于 开 
放 研 究 , 但 我 们 必须 找到 一 种 方法 促进 人 文学 科 发 展 符合 经 济 规律 。 在 耶鲁 这 样 的 机 构 帮 助 下 ,我们 将 实现 这 一 目标 。 人 文 
科学 开放 图 书馆 是 一 个 学 术 主 导 、 无 需 作 者 支付 费用 的 金色 开放 获取 出 版 平台 。 该 平台 的 启动 资金 来 自 于 Andrew W. Mellon 
基金 会 , 并 且 该 平台 的 其 他 费用 均 由 国际 化 的 图 书馆 联盟 支付 ， 而 不 收取 任何 形式 的 作者 费用 。 

耶鲁 大 学 馆藏 建设 主任 Daniel Dollar 补充 说 : “学 术 交 流 新 的 资助 模式 仍然 是 一 个 重要 的 试验 领域 .耶鲁 大 学 图 书馆 很 高 
兴 能 够 支持 学 术 资源 的 公共 获取 , 正如 人 文科 学 开放 图 书馆 所 预想 的 那样 ”在 这 种 情况 下 ，Arcadia 基金 的 慷慨 资助 使 得 本 
次 合作 成 为 了 可 能 。 
(编译 自 : http://web.library. yale.edu/news/2015/06/yale-university-library-joins-open-library-humanities-library) 


(本 刊 讯 ) 
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